Loading...
机构名称:
¥ 1.0

单眼深度估计是计算机视觉中的持续挑战。变压器模型的最新进展与该领域的常规CNN相比表现出显着的优势。但是,这些模型如何优先考虑2D图像中的不同区域以及这些区域如何影响深度估计性能,仍然存在差距。探索转移器和CNN之间的差异,我们采用了稀疏的像素方法来对比分析两者之间的区别。我们的发现表明,尽管变形金刚在全球环境和错综复杂的纹理中表现出色,但它们却落后于保留深度梯度连续性。在单眼深度估计中增强了变压器模型的性能,我们提出了深度差异(DGR)模块,该模块通过高阶分化,特征融合和重新校准来完善深度估计。此外,我们利用最佳运输理论,将深度图视为空间概率分布,并采用最佳运输距离作为损失函数来优化我们的模型。实验结果表明,与插入深度梯度改进(DGR)模块集成的模型以及置换损失函数可增强性能,而无需增加室外Kitti和Indoor Nyu-Depth-v2数据集的复杂性和计算成本。这项研究不仅提供了深入估计变压器和CNN之间区别的新见解,而且还为新颖的深度估计方法铺平了道路。

arxiv:2308.08333v4 [CS.CV] 23 Jul 2024

arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第1页

arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第2页

arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第3页

arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第4页

arxiv:2308.08333v4 [CS.CV] 23 Jul 2024PDF文件第5页

相关文件推荐

2024 年
¥1.0
2024 年
¥1.0
2024 年
¥1.0